联邦学习能否解决金融数据整合难题?
网络与数据法
专栏
2020年4月8日,微众银行联合多家企业和机构发布《联邦学习白皮书V 2.0》(以下简称“白皮书”),推出了名为“联邦学习”的机器学习模式。白皮书介绍了联邦学习的背景、定义、分类、框架及应用实例。联邦学习旨在使人工智能系统高效运用多方数据的同时,满足数据隐私、安全和监管要求。这与金融领域的数据整合有很高的契合度,因此,金融业是联邦学习的重要应用领域。我们结合金融集团数据整合的项目经验,来探讨联邦学习对于解决当前金融数据整合难题的意义。
白皮书将联邦学习分为三类。第一类是横向联邦学习,适用于用户特征重叠较大,用户重叠较小的场景;在金融领域可应用在各个银行联合进行反洗钱建模,解决该领域样本数量少,模型覆盖范围小,仍需大量人工审核的问题。第二类是纵向联邦学习,适用于用户特征重叠较小,用户重叠较大的场景;在金融领域可应用在联合信贷风控建模和联合权益定价建模,两者都是通过用户画像建模进行预测,解决金融机构数据单一的问题。第三类是联邦迁移学习,适用于用户和用户特征重叠都很小的场景,目前联邦迁移学习在金融领域的应用较少。
从技术上来说,横向联邦学习的实现方式是,用户的终端设备使用本地数据训练模型,并将模型的梯度和损失加密后汇总到中心服务器,中心服务器更新模型后传回到终端设备,各个终端设备更新各自的模型。纵向联邦学习的实现方式则是,对各参与方加密样本对齐,随后由中心服务器向参与方发送用于加密的公钥,参与方分别计算模型并加密交互特征中间结果,用来求得各自梯度和损失,梯度和损失加密后发送给中心服务器,中心服务器解密梯度和损失后回传给各参与方,各参与方更新模型。联邦迁移学习的实现方式和纵向联邦学习几乎相同。
出于保护隐私和个人信息的目的,数据领域的一般规则和金融领域特殊规则都将用户授权作为共享用户数据的基本前提条件之一。
关于数据领域一般规则,《中华人民共和国网络安全法》(以下简称“《网络安全法》”)第42、44条规定,未经被收集者同意,网络运营者不得向他人提供个人信息,但是,经过处理无法识别特定个人且不能复原的除外;不得非法出售或者非法向他人提供个人信息。《信息安全技术 个人信息安全规范》(GB/T35273-2020,以下简称“《个人信息安全规范》”)第9.2条也规定,个人信息控制者应在共享或转让个人信息前先告知个人信息主体,并征得其同意,除非共享或转让的是经去标识化处理的个人信息。
由此可见,客户授权是金融机构对外提供客户金融数据的基本条件之一。在实践中,对于存量客户,尤其是早期客户,金融机构在最初的业务场景下收集数据时,并没有考虑到未来的数据整合需求,因此没有获取用户授权,或者获得的授权不充分。对于增量客户,金融机构可以通过修改业务合同、设置隐私政策等方式获取用户授权,但是仍然面临缺乏统一便捷的触达途径、部分用户拒绝授权等困难。
对外提供客户金融数据的法律限制
客户金融数据不仅涉及隐私和个人信息保护,也关乎金融稳定和经济安全,所以现行法律对于金融机构对外提供客户金融数据限制较多。
在证券基金领域,对外提供客户数据受到更严厉的限制。2014年《证券公司客户资料管理规范》第4.4条规定,非依法律法规规定、监管报送、客户同意或者因客户身份识别的需要,不得向任何单位和个人提供。2018年《证券基金经营机构信息技术管理办法》第34条则规定,除法律法规和中国证监会另有规定外,证券基金经营机构不得以任何方式对外提供客户信息。这一规定几乎将证券基金业机构对外提供数据之路彻底封死。
不过,2019年中国人民银行发布的《金融控股公司监督管理试行办法(征求意见稿)》在此问题上有所突破,其第22、23条规定,金融控股公司与其所控股机构之间、其所控股机构之间可以共享客户信息,应当确保依法合规、风险可控,防止客户信息被不当使用。不过,该办法至今尚未正式发布。此外,根据该办法,金融控股公司的设立需满足严格的实体条件和程序条件,能够获得牌照的企业数量有限;而且数据共享只限于金融控股集团内部,不包括与外部共享数据,故法律限制仍然很严格。
缺乏适当的激励机制
联邦学习可在不转移客户数据的情况下实现联合建模,也就避免了共享或转让客户数据需要获得用户授权的问题。这既适用于增量客户,也适用于存量客户,尤其是对于解决存量客户的授权难题,效果显著。
客户数据不转移,不违背相关法律限制
数据不出本地,降低安全风险
在传统数据建模的过程中,一般需要将多源数据集中到一个数据中心,然后再将每个用户的特征合成一条数据用来训练模型。数据在传输过程中,面临着安全风险;集中存储的数据也容易成为黑客攻击的主要目标,数据的安全保护措施如果不到位,数据容易泄露。除了外部攻击风险,数据的流转和集中也会增加来自内部的安全风险,如数据接收方及其工作人员的过量下载、违规使用等行为。
在联邦学习中,各参与方的数据不会离开终端设备或本地服务器。各参与方的终端设备或服务器内的数据只参与本地建模,中心服务器和其他参与方只会获得模型的中间计算结果,因而避免了将数据传输和集中存储、使用过程中的安全风险。
尽管联邦学习避免了共享或转让数据授权的问题,各参与方也不直接使用其他参与方的数据,但各参与方仍需要使用本地服务器中的客户数据进行建模。根据数据领域一般规定和金融领域监管规定,这一使用行为仍然需要获得客户授权。
一般而言,金融机构在早期收集客户数据时,告知客户的使用目的比较单一,可能并未包含联合建模、数据分析等,这就要求金融机构在参与联邦学习前,就此目的告知客户并征得其同意。
联邦学习适用于部分应用场景,不能全面覆盖金融数据整合需求
在金融机构的数据整合中,联邦学习常被用来做预测类的建模。金融机构可以通过联邦学习丰富用户模型,用户模型可对用户的违约概率、出险概率、购买概率等进行计算,应用场景包括联合信贷风控建模、联合权益定价建模、联合客户价值建模等。
在实践中,金融集团的数据整合是多层次、多场景和多目的的。在有些场景下,比如交叉营销、联合营销等,需要共享客户数据,比如手机号码等。由于联邦学习是一种建模框架,模型只能输出分值或是本地数据库中有的特定标签,但不能输出其他参与方数据库中的数据,因此联邦学习不能适用于这些场景。
建立激励机制知难行亦难
联邦学习的建模效果依赖于参与者的数据量和数据质量,有越多的参与者加入联邦学习,或是参与者的数据资源越是丰富,模型将得到更多的优化,建模的效果将越好,因此联邦学习需要鼓励更多参与者加入。在采用联邦学习的情况下,仍然需要解决激励机制的问题。
联邦学习的激励机制除了在理论上仍有争议,在落地层面上也很难实现,因为要实现联邦学习的激励机制,绕不开数据价值的问题,而这个问题联邦学习自身无法解决,也没有一套公认的数据价值评估标准。
联邦学习服务商需遵守金融机构供应商管理规定
联邦学习服务商属于外包商或供应商。《银行业金融机构外包风险管理指引》(以下简称“《外包风险监管指引》”)第3条规定,外包是指将原来由自身负责处理的业务活动委托给服务提供商进行持续处理的行为,服务提供商包括独立第三方。《证券期货业信息安全保障管理办法》第6条规定,供应商为证券期货业提供的是软硬件产品或者技术服务。联邦学习服务商向金融机构提供软件产品或是技术服务,完成原本由金融机构自行完成的建模工作,因此联邦学习服务商属于金融机构的外包商或供应商。
金融领域的监管规定对金融机构对外包商或供应商进行风险管理做出了要求。银行业的《外包风险监管指引》要求金融机构的外包活动应在组织结构和风险管理层面符合该指引的要求,并列出了详细的要求。《做好个人金融信息保护工作的通知》第7条要求银行业金融机构充分审查、评估外包服务供应商保护个人金融信息的能力,并将其作为选择外包服务供应商的重要指标。《商业银行信息科技风险管理指引》第60条也要求商业银行应加强信息科技相关外包管理工作,确保商业银行的客户资料等敏感信息的安全。在证券基金行业,《证券期货业信息安全保障管理办法》第36条规定,核心机构和经营机构应当建立供应商管理制度,定期对供应商的资质、专业经验、产品和服务的质量进行了解和评估。在保险业,《保险公司信息系统安全管理指引(试行)》第51条要求制定完备的外包服务管理制度,将外包纳入全面风险管理体系,并不得将信息系统安全管理责任外包。金融机构即使无需将数据直接传输给外包商或供应商,也应充分审查并评估外包服务供应商保护个人金融信息的能力,以确保客户资料等敏感信息的安全。
联邦学习行业成熟后会产生新的合规风险
在联邦学习行业相对成熟的情况下,联邦学习服务商将获得类似于数据控制者的地位,相当于参与方的数据从参加联邦学习开始就被共享或是被共同控制。
当然,联邦学习服务商成为数据控制者,在目前联邦学习早期阶段不会出现,只有在将来联邦学习服务商发展得十分成熟,而参与者对联邦学习模型的优化作用很小的情况下才可能出现。
联邦学习的特点在于在建模的过程中各方数据都保留在本地,参与方只共享模型中间计算结果而不共享数据。因此,联邦学习让金融领域数据整合不用受到对外提供数据的限制性规定,无需获得客户的共享授权,也可以减少数据安全风险,对解决当前金融数据整合面临的诸多难题有着重要意义。联邦学习仍需面对一些技术和法律难题,应用场景仍有限制,也需要激励机制鼓励更多企业加入。联邦学习在使用数据时仍应获得客户授权,企业也应履行对供应商进行风险管理的义务;而且在联邦学习行业成熟后,可能还会产生新的合规性挑战。
网络与数据法专栏往期文章
1. 《网络安全法》的出台改变了什么?——条文解析企业的网络安全义务和法律合规新需求
5. GDPR之“用户数据可携权”评析(一)——认识“用户数据可携权”
6. GDPR之“用户数据可携权”评析(二)——“用户数据可携权”实务运用的若干问题
7. GDPR之“用户数据可携权”评析(三)——“数据可携权”视角下的数据之争
8. 网安法第37条背景下的境外证据开示与数据出境问题
9. 对“数据共享合法化”的分析与思考系列之一:以《关于欧洲企业间数据共享的研究》为起点
10. 对“数据共享合法化”的分析与思考系列之二——欧盟B2B数据共享的案例研究
11. GDPR在看着你吗——GDPR第2条和第3条(适用范围)详解
13. 中国企业的GDPR合规挑战
14. 对“数据共享合法化”的分析与思考系列之三——欧盟B2B数据共享的案例研究
16. 从《网络安全等级保护条例(征求意见稿)》看等保1.0到等保2.0的重要变化
17. 《网络安全等级保护条例(征求意见稿)》与《信息安全等级保护管理办法》的条款比对
20. 欧盟《隐私与电子通信条例》(e-Privacy Regulation)草案介绍
21. 当资本运作遇到网络安全:尽调该怎么做?
22. 电信和互联网行业网络安全大检查来临,你准备好了吗?
021-2613 6222
yuan.lizhi@jingtian.com
声明 DISCLAIMER
本文观点仅供参考,不可视为竞天公诚律师事务所及其律师对有关问题出具的正式法律意见。如您有任何法律问题或需要法律意见,请与本所联系。
This article is for your reference only and not to be deemed as formal legal advice given by Jingtian & Gongcheng or its lawyers. Please contact us directly for formal legal advice or further discussion about the relevant issues.